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数字 人 文 视角 下 的 古籍 知识 关联 探析 
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fi 2: [目的 / 意义 ] 数 字 人 文 方兴未艾 ， 为 古籍 知识 关联 的 实现 提供 了 重要 现代 科技 手段 。 对 古籍 内 容 挖 掘 与 知识 关联 进 


籍 资源 开发 水 平 与 服务 质量 ， 推 动 


行 研 究 ， 有 助 于 提升 古 


华 优秀 传统 文化 创造 性 转化 、 创 新 性 发 展 。 [ 方 ; 


/过程 ] 通 过 文 


献 综述 和 网 络 调研 ， 


a 


梳理 数字 人 文 视 角 下 古籍 知识 关联 的 研究 


， 探 讨 古籍 知识 关联 的 关键 环节 ， 通 过 古籍 知识 关联 应 用 举例 


分 析 右 籍 知识 关联 的 壁垒 。 [结果 / 结论 ] 数 字 人 文 视角 下 ， 从 文献 单元 层次 的 组 织 深 入 到 知识 单元 层次 的 组 织 ， 借 助 数据 分 
见 化 技术 等 ， 可 实现 古籍 知识 关联 。 古 籍 知 识 关 联 起 点 是 文献 组 织 ， 基 础 是 古籍 数据 ， 本 质 是 知识 组 


析 技 术 、 机 器 学 习 、 可 


H 


面临 知识 元 处 理 难度 大 、 技 术 要 求 高 、 集 成 平台 少 等 壁 
关键 词 : 古籍 整理 ; 数字 人 文 ; 知识 关联 ; 知识 元 
中 图 分 类 号 : G250 文献 标识 码 ， A 


织 。 古 籍 知识 关联 可 进行 方志 与 家 谱 挖掘 、 铃 印 知识 网 络 发 现 、 


特定 时 期 与 地 域 学 者 研究 脉络 与 交往 分 析 等 ， 但 在 实施 中 仍 
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党 的 十 八大 以 来 ， 以 习近平 同志 为 核心 的 党 中 央 
对 传承 和 弘扬 中 华 优秀 传统 文化 作出 一 系列 重大 决策 
部 署 ， 古 籍 事业 迎 来 新 的 发 展 机 遇 。2022 年 3 A, 
“加 强 文物 古籍 保护 利用 ”首次 写 入 政府 工作 报告 吕 。4 
月 11 日 ， 中 共 中 央 办 公 厅 、 国 务 院 办 公 厅 印发 《关于 
推进 新 时 代 古 籍 工 作 的 意见 》D。4 月 25 日， 习近平 
总 书记 在 考察 中 国人 民 大 学 图 书馆 时 指出 ， 要 运用 现 
代 科技 手段 加 强 古 籍 典藏 的 保护 修复 和 综合 利用 外 。5 


月 27 日， 习近平 总 书记 强调 ,把 考古 探索 和 文献 研究 
同 自然 科学 技术 手段 有 机 结合 起 来 9。 

古籍 具有 独特 的 文物 价值 、 学 术 价值 和 艺术 价值 ， 
是 凝聚 传统 文化 最 重要 的 载体 之 一 。 从 传统 的 古籍 文 
献 书目 整理 ， 到 古籍 书目 和 全 文 数 据 库 建设 ， 对 古籍 
资源 的 开发 与 利用 一 直 是 学 界 和 业界 关注 的 焦点 。 当 
前 ， 古 籍 资源 的 数字 化 著录 已 较为 普及 ， 如 各 单位 自 
建 古籍 书目 数据 库 、“ 学 苑 汲 古 : 高 校 古文 献 资源 库 ” 
“全 国 古 籍 普查 登记 基本 数据 库 ” 等 。 此 外 ， 还 出 现 一 
批 商业 化 的 古籍 全 文 数据 库 ， 如 “中 国 基本 古籍 库 ” 
“中 华 经 典 古籍 库 ”“ 书 同文 古籍 数据 库 ” 等 。 但 随 着 
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大 规模 古籍 数据 库 的 建成 ， 学 者 发 现 古 籍 数据 库 只 是 
对 古籍 文献 外 部 特征 与 内 容 特征 进行 揭示 ， 仅 能 满足 
用 户 基本 的 检索 与 使 用 的 需求 ， 并 未 对 古籍 资源 从 知 
识 组 织 的 角度 进行 深入 挖掘 和 利用 ， 传 统 古籍 整理 的 
局 限 性 逐渐 暴露 出 来 中 

近年 来 ， 计 算 机 信息 技术 与 人 文学 科研 究 深度 结合 
的 新 兴 交 又 学 术 领 域 一 一 数字 人 文 (Digital Humanity) 
得 到 了 迅速 发 展 ， 成 为 加 强 古 籍 典藏 保护 修复 和 综合 
利用 的 重要 现代 科技 手段 。 数 字 人 文 背 景 下 ， 对 古籍 
资源 的 整理 与 研究 从 数字 化 向 数据 化 迈进 ， 从 全 文 数 
据 库 向 知识 平台 迈进 ， 从 全 文 检索 向 智慧 检索 迈进 。 
古籍 知识 关联 指 的 是 汇集 大 量 结构 化 的 古籍 数据 ， 对 
其 进行 细 粒 度 、 多 维度 切 分 ， 通 过 机 器 标 引 、 辅 以 人 
工 标 引 ， 利 用 关联 数据 、 语 义 网 等 技术 ， 进 行 统计 分 
析 、 网 络 分 析 和 空间 分 析 等 ， 探 寻 数 据 间 的 关系 ， 实 
现 古 籍 资源 外 部 与 内 容 特征 、 古 籍 资源 中 蕴含 的 知识 
元 之 间 的 互联 ， 并 可 根据 用 户 的 需求 ， 实 时 、 自 动 实 
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术 文 献 及 其 知识 关联 由、 金融 领域 知识 关联 中 等 特定 领 
域 文献 间 的 知识 关联 进行 研究 。 目 前 围绕 古籍 资源 知 
识 关联 进行 的 理论 研究 主要 是 围绕 菜 一 数字 人 文平 台 
展开 的 。 李 兵 等 对 中 医 古 籍 知识 化 研究 现状 和 常用 的 
知识 分 析 与 挖掘 方法 进行 综述 中 。 黄 水 清 认为 应 利用 
数字 人 文 技术 实现 古籍 资源 的 创造 性 转化 与 创新 性 发 
展 。 欧 阳 剑 提出 在 新 时 代 古 籍 资源 转化 方面 ， 文 本 化 
和 数据 化 是 基础 、 知 识 化 是 重要 方式 、 平 台 化 是 有 效 
利用 及 传播 的 重要 途径 四。 魏 晓 萍 探 讨 了 数字 人 文理 
论 与 技术 方法 在 古籍 文献 开发 与 利用 的 应 用 中 。 李 欣 等 
认为 数字 方志 特 藏 资源 建设 应 使 用 关联 书目 元 数据 方 
案 ， 最 小 粒度 化 方志 元 数据 ， 提 供 开 放 平台 ， 元 数据 
的 创建 、 分 析 等 可 以 利用 文本 分 析 技 术 等 技术 手段 实 
现 或 者 以 众 包 形式 开展 中 。 王 荤 等 从 元 数据 方案 、 检 
索 点 设计 和 数据 关联 等 角度 ， 总 结 徽 州 文书 数据 库 的 
建设 经 验 四 。 陈 力 认 为 数字 人 文 视 域 下 的 古籍 数字 化 
与 古典 知识 库 建设 存在 计算 机 编码 汉字 和 计算 机 图 像 


现 知识 之 间 的 自动 重组 与 可 视 化 展示 。 本 文 在 梳理 数 
字 人 文 视角 下 古籍 知识 关联 的 研究 基础 之 上 ， 探 讨 古 
籍 知识 关联 的 关键 环节 ， 举 例 分 析 古 籍 知识 关联 ， 总 
结 古 籍 知 识 关 联 的 壁垒 。 


2 古籍 知识 关联 的 研究 现状 


数字 人 文 的 出 现 为 古籍 整理 带 来 获取 资料 的 智 
化 、 研 究 方法 的 数据 化 、 研 究 结果 的 可 视 化 三 大 进展 @。 
将 数字 人 文 应 用 于 古籍 整理 ， 改 变 了 古籍 文献 传统 检 
索 方式 ， 从 电子 文献 到 结构 化 数据 库 、 从 点 状 检索 到 
网 状 关 联 、 从 逐条 拷贝 到 分 类 打包 ， 使 传统 的 静态 文 
本 转化 为 可 随意 组 合 的 动态 文本 m。 古 籍 整理 不 再 仅仅 
是 实现 更 大 范围 的 文献 信息 的 揭示 与 保存 ， 更 重要 的 
是 要 实现 上 古籍 文献 蕴含 知识 之 间 的 关联 ,深入 挖掘 其 
蕴含 的 哲学 思想 、 人 文 精神 、 价 值 理念 、 道 德 规范 。 
知识 与 知识 之 间 互 相 发 生 联系 与 影响 即 为 知识 关联 。 
对 知识 关联 的 研究 已 经 有 不 少 ， 如 文 庭 孝 中 围绕 知识 
关联 的 基础 理论 、 内 部 特征 、 结 构 分 析 与 应 用 开展 研 
究 ， 赵 车 英 研究 了 四 知识 关联 的 类 型 。 也 有 学 者 对 学 
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识别 并 转换 为 字符 的 能 力 等 问题 m。 

理论 研究 指导 实践 发 展 ， 利 用 自然 语言 处 理 技术 、 
关联 数据 、GIS 技术 、 可 视 化 技术 等 ， 数 字 人 文 指导 
下 古籍 知识 关联 领域 已 经 产生 了 较为 丰硕 的 实践 成 果 。 
一 是 通过 自动 标注 、 自 动 校对 、 词 语 切 分 等 自然 语言 
处 理 技 术 ， 实 现 命 名 实体 的 识别 与 关联 等 。 如 清华 大 
学 自然 语言 处 理 与 社会 人 文 计算 实验 室 研发 的 中 文 诗 
歌 自动 生成 系统 《 九 歌 》， 以 大 规模 诗歌 文本 为 研究 对 
象 分 析 诗 歌 内 在 联系 ， 为 用 户 提供 诗歌 生成 以 及 人 机 


中 地 名 等 命名 实体 的 识别 与 关联 开展 了 系列 研究 四。 
二 是 通过 关联 数据 ， 实 现 古籍 文献 中 的 时 间 、 地 点 、 
人 物 等 的 关联 ， 形 成 知识 网 络 ， 控 掘 古 籍 文献 的 内 在 
关系 。 如 “中 国 历代 人 物 传记 资料 库 (CBDB)” 构 建 
关系 型 数据 库 为 历史 文献 人 物 建 模 四 ， 上海 图 书馆 
“中 国家 谱 知 识 服 务 平台 ”应 用 关联 数据 重 构 上 海 图 书 
馆 的 家 谱 服 务 。 三 是 结合 GIS 技术 呈现 古籍 文献 资源 
的 时 空 分 布 。 如 “学 术 地 图 发 布 平台 ”实现 了 数据 共 
享 、 可 视 化 分 析 及 多 功能 查询 等 ，“ 唐 宋 文 学 编 年 地 
图 平台 ”以 编 年 地 图 的 形式 提供 唐 宋 时 期 文学 人 物 、 
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事件 的 时 空 分 布 及 作品 关系 。 四 是 通过 可 视 化 技术 等 
构建 知识 图 谱 。 如 北京 大 学 “ 宋 元 学 案 知识 图 谱 可 视 
化 系统 ”梳理 宋 元 时 期 学 术 史 中 的 关系 图 谱 、 学 术 流 
变 、 师 承 关系 、 学 派 传 承 ， 构 建 完整 的 学 术 史 衍化 脉 
络 全 景 ; 武汉 大 学 数字 文化 遗产 研究 中 心 完成 了 “ 数 
FHERR” “PEKIA” “EAN pi 
佛 香 阁 三 维 重建 ”等 项 目 。 

相 较 于 传统 意义 上 的 古籍 数据 库 ， 这 些 实践 成 果 
有 了 新 的 发 展 。 一 是 组 织 机 制 不 同 ， 传 统 的 古籍 整理 
目的 在 于 版 本 鉴定 、 揭 示 资 源 、 保 存 资 源 、 利 用 资源 ， 
而 古籍 数字 人 文平 台 功能 更 为 多 样 、 深 入 ， 其 融合 馆 
藏 元 数据 记录 、 专 家 研究 成 果 、 相 关 网 络 资源 ， 以 知 
识 本 体 为 基础 ， 应 用 关联 数据 等 技术 ， 对 古籍 资源 完 
成 数字 化 到 数据 化 的 知识 重组 ， 以 可 视 化 的 形式 揭示 
古籍 资源 间 的 知识 关联 。 二 是 收录 范围 扩展 ， 传 统 的 
古籍 数据 库 收录 范围 主要 局 限 在 原始 文献 资料 方面 四， 
古籍 数字 人 文平 台 不 仅 收录 原始 文献 ， 还 收录 古籍 文 
献 的 解析 文本 、 延 伸 文 献 等 ， 更 在 一 定 程度 上 实现 了 
从 “数字 化 ”到 “数据 化 ”的 过 渡 ， 从 “数据 孤岛 ” 
到 “数据 共享 ”的 转变 。 以 往 的 数据 库 平 台 多 为 “ 数 
字 化 ”平台 ， 主 要 为 全 文 扫描 图 像 与 文本 存储 平台 ; 
而 古籍 数字 人 文平 台 则 是 一 个 “数据 化 ”的 平台 ， 从 
“存储 ”提升 到 “分 析 ” 与 “关联 ”。 


3 古籍 知识 关联 的 关键 环节 


纵览 这 些 古 籍 数字 人 文平 台 ， 上 古籍 知识 关联 是 在 
古籍 文献 组 织 基 础 之 上 ， 基 于 古籍 文本 数据 进行 的 知 
识 单元 间 的 关联 。 


3.1 古籍 知识 关联 的 起 点 一 一 文献 组 织 


在 原 有 的 古籍 数据 库 基础 之 上 ， 数 字 人 文 视角 下 
的 古籍 知识 关联 可 以 实现 更 大 范围 文献 间 的 组 织 。 

(1) 平台 文献 之 间 的 组 织 。 从 揭示 程度 来 看 ， 数 
字 人 文 视角 下 的 古籍 平台 不 仅仅 实现 了 书目 信息 的 集 
合 揭示 ， 还 实现 了 对 书目 信息 的 区 分 、 聚 类 、 比 较 和 
统计 分 析 外 ， 进 一 步 对 文本 化 的 古籍 内 容 进行 数据 化 


ChinaXiv 合 作 期 刊 


EWW, Kk F 


数字 人 文 视 角 下 的 古籍 知识 关联 探析 


转换 。 一 方面 ， 借 助 于 相似 的 数字 化 技术 和 统一 的 元 
数据 标准 ， 分 散 、 独 立 的 各 古籍 平台 间 的 书目 数据 可 
进行 互联 ， 实 现 不 同 平台 间 的 关联 ; 另 一 方面 ， 在 平 
合 内 部 ， 由 于 古籍 数字 人 文平 台 对 资源 的 内 外 部 特征 
描述 更 为 全 面 ， 可 实现 繁 简 字 、 异 体 字 、 版 本 之 间 
(汇编 本 与 单行 本 、 从 书 的 著录 ) 等 的 互联 。 

(2) 平台 内 外 文献 之 间 的 组 织 。 这 主要 指 的 是 平 
台 文 献 与 新 印 古籍 资源 、 延 伸 研 究 文献 、 互 联网 学 术 
资源 等 之 间 的 关联 与 组 织 。 对 于 人 文学 者 来 说 ， 古 籍 
原本 的 阐释 是 其 研究 工作 的 基础 ， 依 据 这 些 原始 文献 
开展 的 相关 研究 也 是 重要 的 研究 资料 。 新 印 古 籍 资源 
不 仅仅 是 原 典 的 简单 影印 出 版 ， 更 是 专题 性 、 纵 深 性 
资料 的 精 选 汇总 。 延 伸 研 究 文献 指 的 是 和 某 一 古籍 相 
关 的 新 出 版 的 学 术 人 研究 论著 、 学 者 年 表 、 编 年 史 等 研 
究 资料 。 如 家 谱 资 源 的 延伸 研究 文献 包括 人 物 传记 、 
历史 年 表 、 职 官 表 、 日 记 信 札 、 报 纸 公 告 栏 等 。 将 中 
国 知 网 、 超 星 等 数据 库 中 相关 的 研究 资料 关联 到 古籍 
数字 人 文平 台 之 上 ， 将 大 大 拓展 用 户 学 术 研 究 的 视野 ， 
节约 其 时 间 。 如 清 代 台湾 方志 物产 篇 分 析 系 统 利用 学 
名 将 方志 中 的 物产 联结 到 现代 植物 资料 库 ， 将 西方 分 类 
学 观念 建构 的 知识 体系 与 传统 方志 的 资料 互相 联结 外 , 


3.2 上 古籍 知识 关联 的 基础 一 一 古籍 数据 


文献 组 织 是 对 古籍 书目 信息 的 组 织 ， 知 识 组 织 是 
对 古籍 文本 的 组 织 。 而 古籍 文本 不 能 直接 被 计算 机 语 
言 识 别 和 使 用 ， 需 要 将 其 转化 为 可 识别 、 可 理解 的 结 
构 化 数据 ， 进 一 步 从 数据 转化 为 知识 ， 方 能 实现 古籍 
知识 关联 。 因 此 ， 古 籍 数据 是 古籍 知识 关联 的 基础 。 

(1) 古籍 文本 转化 为 古籍 数据 。 首 先 ， 清 洗 以 图 
片 、 文 本 等 格式 存储 的 古籍 数据 ， 通 过 OCR 技术 等 采 
集 古 籍 文本 数据 ， 借 助 分 词 与 标注 技术 等 将 古籍 数据 
颗粒 化 ， 形 成 具有 独立 意义 的 结构 化 数据 单元 ， 借 助 
大 数据 技术 对 各 数据 单元 进行 标 引 形成 新 的 聚 类 ， 以 
实现 数据 的 重新 组 织 。 如 中 文 古籍 半自动 化 标记 平台 
(MARKUS) 通过 关联 多 个 权威 语料库 实现 古籍 中 历史 
人 和 名、 地 名 、 官 名 与 时 间 等 实体 的 自动 标注 ， 为 研究 
者 提供 可 以 通过 定义 关键 字 列 表 、 上 下 文中 的 关键 字 、 
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正则 表达 式 等 方式 进行 半自动 标注 ， 且 支持 以 txt、excel、 
html 格式 输出 标注 结果 名 。 

(2) 古籍 数据 的 量化 分 析 ， 包 括 统 计 分 析 、 网 络 
分 析 和 空间 分 析 。 上 古籍 数据 的 统计 分 析 主 要 是 利用 数 
学 语言 对 独立 数据 单元 的 总 数 、 频 次 等 进行 概括 性 分 
析 ， 较 易 实现 。 古 籍 数据 的 网 络 分 析 是 指 对 已 颗粒 化 
的 古籍 数据 以 某 一 共同 特征 构建 出 新 网 络 结构 进行 分 
析 ， 如 《 宋 元 学 案 》 知 识 图 谱 可 视 化 系统 将 《 宋 元 学 
案 》 信 人物、 时间、 地点、 著作 及 它们 之 间 的 复杂 语义 
关系 提取 出 来 构造 成 知识 图 谱 ， 提 供 可 视 化 展现 、 交 
互 式 浏览 、 语 义 化 查询 等 功能 外 。 上 古籍 数据 的 空间 分 
析 即 是 将 线性 平面 的 数据 实现 点 线 面 的 空间 分 布 ， 包 
括 结构 图 、 地 图 、 分 布 图 等 ， 如 “学 术 地 图 发 布 平台 ” 
借助 GIS 技术 实现 历史 人 物 的 行 迹 、 特 征 分 布 和 社会 
关系 等 信息 的 地 理 上 映射。 


3.3 古籍 知识 关联 的 本 质 


以 文献 为 单元 的 传统 古籍 数据 库 仅 能 满足 用 户 的 
资料 需求 ， 远 不 能 满足 其 知识 需求 ， 古 籍 中 所 包含 的 
细 粒 度 知识 元 的 组 织 成 为 古籍 数字 人 文平 台 的 研究 重 
点 ， 这 也 是 古籍 知识 关联 的 本 质 。 知 识 元 的 概念 最 早 
于 20 世纪 70 年 代 后 期 由 弗 拉 基 米 尔 . 斯 拉 麦 卡 提出 ， 
学 术 文献 中 的 知识 元 指 的 是 语义 上 相对 完整 地 表达 特 
定 知识 的 最 小 的 内 容 单 元 外 。 上 古籍 典籍 知识 元 的 涵义 
又 比 普通 学 术 文献 中 的 知识 元 更 为 特殊 ， 其 类 型 更 为 
多 样 、 复 杂 。 

不 同类 别 的 古籍 所 包含 的 知识 元 类 型 有 所 不 同 。 
以 史 部 为 例 ， 其 下 属 17 大 类 中 ， 地 理 类 之 下 的 总 志 、 
方志 、 专 志 等 多 包含 的 知识 元 类 型 相似 ， 数 字 方 志和 集 
成 平台 即 实现 了 对 方志 类 知识 元 的 组 织 。 该 平台 拆 分 、 
合并 华东 师范 大 学 图 书馆 等 图 书馆 、 超 星 、CADAL、 
中 国 方志 库 、 瀚 党 典籍 库 及 方正 电子 书 等 方志 类 元 数 
据 ， 采 用 BIBFRAME 书目 数据 模型 进行 转换 、 查 重 、 
映射 ， 实现 方志 与 外 部 数据 的 互联 、 最 小 粒度 化 方志 
元 数据 、 平 台 开 放 、 用 户 可 协作 参与 ， 并 尝试 通过 内 
容 分 析 技 术 对 方志 中 的 内 容 进行 分 析 忠 。 史 部 史 表 类 、 
传记 类 的 人 表 、 年 谱 、 科 举 录 、 职 官 录 知识 元 类 型 相 


知识 组 织 
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似 ， 多 表现 为 “ 某 人 生 于 某 年 ， 任 某 职 ” 
阴 州 山 吴 氏族 谱 》 中 有 “ 太 学 生 楚 材 公 ， 


等 。 如 《 山 
VERE, if 


FM; FA, VAC, WPA IUBA.” BAT “Z 
材 公 是 太 学 生 ”“ 楚 材 公 姓 吴 氏 ”“ 楚 材 公 讳 乘 权 ” 
“ 子 立 公 讳 乘 业 ”“ 楚 材 公 和 子 立 公 为 山 阴 州 山里 人 ” 


等 语义 三 元 组 ， 以 RDF 数据 格式 描述 ,将 人 、 地 、 时 
串联 成 一 个 个 的 迁徙 事件 ， 可 将 具有 共同 先祖 的 先祖 
名 人 及 其 迁徙 事件 关联 起 来 中。 而 史 部 金石 类 中 的 知 
识 元 不 仅 包括 对 图 像 的 识别 ， 即 如 何 将 图 像 中 的 内 容 
进行 抽取 、 释 读 ， 还 包括 对 识别 后 的 文本 知识 元 进行 
语义 描述 。 

除 此 之 外 ， 古 籍 资 源 还 包含 一 些 特殊 类 型 的 知识 
元 。 如 版 本 知识 元 、 铃 印 知识 元 ， 通 过 对 “和 栋 亭 曹 氏 
藏书 ” 印 主 为 曹 寅 、“ 栋 亭 草 氏 藏书 ” 印 为 长 方形 、 
ASC. 、 繁 体 ，“ 栋 亭 草 氏 藏书 ” 刻 于 《 皇 明 大 训 记 》 
书 名 页 等 的 描述 ， 可 以 让 机 器 准确 理解 铃 印 知识 元 ， 
如 图 1 所 示 。 


4 古籍 知识 关联 的 应 用 举例 


从 文献 单元 的 组 织 深 入 到 知识 单元 的 组 织 ， 古 籍 
数字 人 文平 台 可 实现 知识 关联 。 关 联 的 本 质 是 实现 文 
献 与 文献 、 知 识 与 知识 之 间 的 互相 联系 与 影响 。 古 籍 
数字 人 文平 台 实现 了 更 大 范围 书目 数据 的 聚合 ， 有 利 
于 学 者 将 散落 在 不 同 机 构 的 同一 作品 的 不 同 版 本 陛 集 ， 
“ 辨 前 学 术 、 考 镜 源 流 ”， 进 行 版 本 鉴定 与 版 本 源流 的 
考证 。 而 借助 内 容 挖掘 、 时 空 分 析 等 数据 分 析 技 术 与 
知识 地 图 、 主 题 图 等 可 视 化 技术 ， 上 古籍 知识 关联 可 进 
行 方志 与 家 谱 挖掘、 铃 印 知识 网 络 发 现 、 特 定时 期 与 
地 域 学 者 研究 脉络 与 交往 分 析 等 。 


4.1 方志 与 家 谱 挖 掘 


夫 家 有 谱 、 州 有 志 、 国 有 史 ， 方 志和 家 谱 具 有 揭 
示 某 一 区 域 与 家 族长 期 、 延 续 的 发 展 状 况 与 迁徙 路 线 
的 史料 性 价值 。 通 过 集成 散落 在 各 地 的 大 量 零散 方志 、 
家 谱 ， 借 助 于 统一 的 元 数据 标准 ， 可 集成 不 同 平台 间 
志 谱 书目 数据 、 志 谱 相 关 资 源 。 在 此 基础 之 上 ， 对 大 
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数字 人 文 视 角 下 的 古籍 知识 关联 探析 


http://www.library.sh.cn/ontology/Seal 


栋 亭 曹 氏 藏书 


栋 亭 曹 氏 藏书 


http://data.library.sh.cn/entity/person/y1bxgqoz33fksx75 
http://data.library.sh.cn/gj/resource/img/i2uzwhkpuilgnfrs 


http://data. library.sh.cn/gj/entity/libliotheca/v8bywuw1czi603rm 


aR 
栋 亭 曹 氏 藏书 
栋 亭 曹 氏 藏书 


http://xmins.com/foaf/0.1/Image 


RSRKae 


了 明 清 藏书 家 藏书 印 


http://data.library.sh.cn/gj/entity/seal/tl2ta1su4fj8ks15 


* 数据 来 源 : 上 海 图 书馆 开放 数据 平台 .印章 知识 库 (http://datal library.sh.cn/gj/webapi/toSealList ) 
图 1 “ 栋 亭 草 氏 藏书 ”藏书 印 RDF 数据 
Fig.l RDF data of" Cao's collection" book seal 


规模 、 多 源 、 多 维 的 志 谱 资源 进行 文本 化 、 数 据 化 转 
换 ， 抽 取 其 中 蕴含 的 知识 单元 ， 通 过 量化 分 析 与 可 视 
化 展示 ， 实 现 志 谱 的 数据 集成 与 知识 关联 。 如 中 国家 
谱 知 识 服务 平台 把 散落 在 不 同 家 谱 文 献 中 的 人 、 地 、 
时 、 事 关联 起 来 ， 发 现 人 与 人 之 间 、 人 与 文献 之 间 的 
关系 ， 形 成 完整 的 知识 图 ， 以 可 视 化 的 方式 展示 。 这 
既 便 于 普通 读者 直观 获得 隐藏 在 不 同文 献 中 的 知识 ， 
并 将 不 同 的 文献 按照 某 一 主题 有 机 地 组 织 起 来 ， 提 供 
知识 导航 ; 更 可 以 帮助 研究 者 发 现 问题 ， 提 出 问题 中 。 


4.2 铃 印 知识 网 络 发 现 


铃 印 知识 元 是 古籍 资源 中 一 种 重要 的 知识 元 。 将 
铃 印 作 为 实体 对 象 ， 对 其 所 蕴含 的 印 文 、 印 主 、 藏 本 
知识 进行 语义 标注 ， 实 现 同 一 印 主 不 同 铃 印 间 的 归 一 
处 理 ， 实 现 同一 印 主 的 字 、 号 、 别 名 等 之 间 的 归 一 处 
理 ， 并 将 藏 本 信息 与 联合 目录 、 循 证 平台 关联 ， 将 时 
间 、 地 点 与 历史 纪年 表 、 地 理 名 词 表 等 关联 ， 将 印 主 
信息 与 人 名 规范 档 等 进行 关联 ， 进 而 发 现 印 文 、 印 主 
与 藏 本 之 间 的 关联 关系 ,实现 平台 内 外 文献 的 互联 与 
铃 印 的 知识 挖 气 。 通 过 构建 铃 印 知识 元 库 ， 既 可 以 加 
深 铃 印 内 含 知识 的 挖 据 层次 、 细 化 其 表示 粒度 ， 又 可 


以 辅助 梳理 递 藏 源流 、 考 证 藏书 的 收藏 与 散 逸 情况 、 
漳 清 馆藏 来 源 四 。 


4.3 特定 时 期 与 地 域 学 者 研究 脉络 与 交往 分 析 


通过 对 多 源 、 异 构 古 籍 资源 的 文献 组 织 、 知 识 组 
织 ， 可 实现 平台 内 外 的 文献 与 文献 之 间 、 文 献 内 外 知 
识 单元 之 间 的 关联 ， 帮 助 研究 者 发 现 人 工 难 以 获得 的 
知识 ， 进 行 特定 时 期 与 特定 地 域 学 者 研究 脉络 与 交往 
等 的 分 析 。 这 是 当前 古籍 知识 关联 实现 的 重要 价值 所 
在 。 如 欧阳 剑 以 大 规模 中 国 古 籍 文本 〈41 563 种 古籍 ， 
总 计 48.35 亿 字 ) 为 研究 对 象 ， 对 古籍 进行 整理 、 标 
注 、 自 动 分 词 等 处 理 ， 创建 了 一 个 以 语言 学 、 历 史 文 
献 学 、 历 史 地 理学 等 人 文学 科研 究 为 主 的 古籍 实时 统 
计 分 析 平 台 ， 实 现 了 实时 统计 分 析 、 时 间 和 空间 可 视 
化 分 析 ， 可 辅助 研究 者 在 大 量 的 古籍 文献 中 发 现 新 的 
模式 、 现 象 、 趋 势 等 四 。 


5 上 古籍 知识 关联 的 壁垒 


数字 人 文 视 角 下 古籍 知识 关联 虽 极 具 现 实意 义 ， 
但 在 实施 中 仍然 受到 种 种 壁垒 的 限制 。 
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5.1 知识 关联 对 象 的 壁垒 


对 于 大 多 数 机 构 来 说 ， 知 识 关联 的 对 象 一 一 古籍 
文献 数据 与 知识 元 的 文本 化 处 理 与 关联 化 实现 仍然 具 
有 较 高 的 难度 。 古 字 无 定形 ， 已 完成 的 古籍 数字 化 资 
源 在 文本 化 转换 过 程 中 仍 以 OCR 识别 加 专家 人 工 校 读 
为 主要 工作 方式 。 虽 然 目前 书 同文 二 慧眼 OCR 平台 、 
古 联 公司 古籍 OCR 系统 、 如 是 OCR 等 在 古籍 文本 
OCR 识别 方面 已 经 取得 了 一 定 的 成 就 ， 但 普遍 意义 上 
Kite, TH OCR 识别 始终 面临 版 式 多 样 ( 横 版 、 竖 
版 、 小 字 双 行 等 )、 格 式 各 异 ( 除 文 字 外 还 有 碑帖 拓 
片 、 与 图 等 实物 、 图 像 类 )、 异 体 字 众多 、 字 形 字体 多 
变 、 字 符 集 大 而 标注 样本 少 等 困难 。 

古籍 全 文 数字 化 是 进行 古籍 知识 关联 的 基础 ， 古 
籍 文本 的 识别 与 转换 相关 研究 问题 一 直 深 受 学 界 重视 。 
不 少 学 者 基于 机 器 学 习 、 深 度 学 习 等 方法 技术 ， 提 出 
了 古籍 文档 图 像 版 面 分 析 方 法 与 文字 检测 分 割 方法 、 
构建 大 规模 图 像 和 文本 语料库 、 设 计 古 籍 文档 图 像 预 
训练 模型 等 。 未 来 ， 应 进一步 增强 该 领域 的 研究 ， 以 
提高 古籍 文本 识别 效率 与 质量 。 


5.2 组 织 方法 、 技 术 与 工具 的 壁垒 


要 实现 古籍 知识 关联 ， 在 古籍 文本 化 的 基础 之 上 ， 
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5.3 组 织 体系 的 壁垒 


古籍 数字 人 文 项 目的 纷纷 落地 、 数 字 人 文平 台 的 
不 断 推出 也 展露 了 当前 古籍 数字 人 文 研究 的 一 个 隐 性 
次 端 ， 即 大 大 小 小 的 数字 人 文 项 目 “ 遍 地 开花 ”， 大 部 
分 古籍 数字 人 文平 台 仅 为 某 一 机 构 所 开发 ， 多 针对 某 
一 特定 类 型 资源 如 方志 、 中 医药 、 佛 经 等 甚至 单一 部 
古籍 等 ， 使 用 范围 也 多 受 限 于 建设 单位 内 部 。 数 字 人 
文 视角 下 的 古籍 知识 关联 应 克服 传统 古籍 整理 的 “小 、 
散 、 乱 ”模式 ， 从 建制 上 进行 努力 ， 避 免 重复 建设 ， 
参考 古籍 书目 数据 库 “ 全 国 古 籍 普查 登记 基本 数据 库 ” 
等 模式 ， 由 相关 机 构 牵头 ， 馆 藏 机 构 、 人 文学 者 、 计 
算 机 领域 学 者 共同 协作 ， 多 建设 如 “中 文 古籍 联合 目 
录 及 循 证 平台 ”“ 数 字 方 志 集 成 平台 ”这 类 综合 性 、 
集成 性 、 可 扩展 性 的 平台 ,促进 古籍 资源 的 共 建 共享 、 
深度 挖掘。 


6 结 语 


古籍 资源 是 一 个 图 书馆 “人 无 我 有 ”、 具 有 特殊 价 
值 的 一 部 分 资源 ， 是 数字 人 文 研究 的 重要 对 象 之 一 ， 
数字 人 文 的 理念 、 工 具 与 方法 是 古籍 资源 开发 与 利用 
的 重要 助力 。 数 字 人 文 视角 下 ， 从 文献 单元 层次 的 组 


还 需要 将 传统 古籍 数据 库 中 的 关系 型 古籍 全 文 数据 转 
换 为 语义 层次 的 知识 元 。 数 据 化 的 古籍 知识 需要 有 相 
关机 构 牵 头 ， 多 学 科 领 域 专家 参与 制定 统一 的 、 科 学 
的 元 数据 描述 规范 ， 方 能 使 得 不 同 平台 间 文 献 单 元 、 
知识 单元 实现 共享 、 形 成 映射 。 而 在 知识 关联 的 构建 
过 程 中 ， 需 要 应 用 到 各 种 技术 方法 。 对 于 图 书馆 等 古 
籍 资源 馆藏 机 构 来 说 ， 从 文本 分 析 、 聚 类 分 类 、 主 题 
分 析 、 内 容 挖 据 、 时 序 分 析 、 地 理 空间 分 析 、 社 会 关 
系 分 析 等 内 容 分 析 技 术 到 可 视 化 技术 ， 到 机 器 学 习 的 
技术 、 方 法 需要 得 到 进一步 开发 与 应 用 ， 这 是 发 现 知 
识 元 与 知识 元 间 的 关系 ， 并 以 可 视 化 的 形式 进行 揭示 ， 
进而 实现 知识 关联 的 关键 。 图 书馆 等 馆藏 机 构 应 进 一 
步 与 相关 机 构 加 强 合作 ， 推 动 相 关 技 术 方 法 的 开发 、 
落地 、 应 用 、 推 广 。 
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织 深入 到 知识 单元 层次 的 组 织 ， 借 助 数据 分 析 技 术 、 
机 器 学 习 、 可 视 化 技术 等 ， 可 实现 古籍 知识 关联 。 古 
籍 知识 关联 起 点 是 文献 组 织 ， 基 础 是 古籍 数据 ， 本 质 
是 知识 组 织 。 古 籍 知 识 关联 可 进行 方志 与 家 谱 挖掘 、 
铃 印 知识 网 络 发 现 、 特 定时 期 与 地 域 学 者 研究 脉络 与 
交往 分 析 等 ， 但 在 实施 中 仍 面临 知识 元 处 理 难度 大 、 
技术 要 求 高 、 集 成 平台 少 等 壁 鑫 。 

新 于 研究 条 件 所 限 ， 论 文 仅 从 理论 角度 对 古籍 知 
识 关 联 的 研究 与 应 用 、 关 键 环节 、 辟 垒 等 进行 了 论述 ， 
未 来 我 们 将 以 馆藏 古籍 知识 平台 优化 升级 为 契机 ， 进 
一 步 对 古籍 元 数据 描述 规范 、 古 籍 文本 转换 与 内 容 控 
掘 、 不 同 平台 间 数 据 交 换 及 更 新 机 制 进行 研究 ， 以 促 
进 古 籍 资源 更 深层 次 的 知识 关联 、 更 大 范围 的 共 建 共 
享 ， 提 升 古籍 资源 开发 水 平 与 服务 质量 。 
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Knowledge Correlation of Chinese Ancient Books from the Perspective 
of Digital Humanities 


WANG Lili'**, ZHANG Ning!” 
(1. Renmin University of China Libraries, Beijing 100872; 2. Institute of Renmin University Ancient Books Collocation and Studies, 


Beijing 100872; 3. Research Center for Digital Humanities of RUC, Beijing 100872) 


Abstract: [Purpose/Significance] Chinese ancient books are one of the most important carriers to condense the essence of Chinese 
traditional culture. However, scholars have found that the database of Chinese ancient books only provides book metadata, which can 
only meet the basic retrieval and use needs of users, but does not dig and utilize Chinese ancient books in depth from the perspective of 
knowledge organization. The research in digital humanities is in the ascendant, providing an important modern scientific and 
technological means for the realization of knowledge correlation of Chinese ancient books. The research on the content mining and 
knowledge correlation of Chinese ancient books will help to improve the development level and service quality of Chinese ancient 
books, and promote the creative transformation and innovative development of Chinese excellent traditional culture. [Method/Process] 
Through literature review and online investigation, this paper summarizes the research of Chinese ancient books' knowledge correlation 
from the perspective of digital humanities. Based on the research, this paper discusses the differences between traditional database and 
digital humanistic platforms of Chinese ancient books. First, the organization mechanism is different, and the latter has more diverse and 
in-depth functions. Second, the scope of collection is expanded. The latter includes not only the original documents, but also the 
analytical texts and extended documents of ancient books, etc. In the past, most database platforms were "digital" platforms; The digital 
humanistic platform of Chinese ancient books is a platform of "data", which has been upgraded from "storage" to "analysis" and 
"correlation". Then, the key links of Chinese ancient books' knowledge correlation are discussed, and the barriers of knowledge 
correlation are analyzed by examples. [Results/Conclusions] From the perspective of digital humanities, collation of Chinese ancient 
books has developed from document units to knowledge units by using the data analysis technology, machine learning, visualization 
technology, etc. The realization of knowledge correlation of Chinese ancient books starts from document organization, based on ancient 
book data, and its essence is knowledge organization. Knowledge correlation of Chinese ancient books can be used for local chronicles 
and genealogy mining, seal knowledge network discovery, research context and communication analysis of scholars in specific periods 
and regions. However, the current knowledge correlation of ancient books still faces barriers such as the difficulty of knowledge element 
processing, high technical requirements and the lack of integrated platforms in its implementation. Limited by the research conditions, 
this paper only discusses the research and application, key links and barriers of ancient books' knowledge correlation from a theoretical 
point of view. In the future work, we will take the opportunity of optimizing and upgrading our ancient books' knowledge platform, to 
further study the metadata description specification, text conversion and content mining of Chinese ancient books, data exchange and 
update mechanism among different platforms. 


Keywords: collation of ancient books; digital humanity; knowledge correlation; knowledge units 


2022 年 第 34 卷 第 9 期 


59 


